临床研究中,经常要计算某个样本的率(proportion),以及根据样本的率估算总体率的95%可信区间(Confidence Interval,CI)。样本率的计算很容易,那如何计算估算总体率的95%CI呢?对于此类二项分布的数据,如果“数据量足够大”,一般可以使用正态近似法估算总体率的可信区间。
那如何才是“数据量足够大”呢?这个没有统一的标准。有学者推荐若以相对误差控制在10%左右为实际可接受标准,则使用正态近似法估计总体率95%可信区间的近似条件为 : 1)当 n×p=5时,样本率应在40%-60 %之间;2)当 n×p=10时,样本率应在20%-80 %之间;3)当 n×p=15时,样本率应在1%-99 %之间。由于1%-99%几乎包括了二项分布率的实际应用范围 ,且在此条件下的可信度 与1-α水平相当 ,故n×p=15为应用近似法的“理想条件”[1]。
不满足正态近似法的条件可用精确概率法估算总体率的置信区间。下面介绍几种计算率及其置信区间的方法。
1.公式计算
1.1 单个率及其95%CI
1.2 两个率的差及率差的95%CI
2.在线工具计算
用在线工具VassarStats
(http://vassarstats.net/index.html)计算
2.1 单个率及其95%CI
在VassarStats的主界面点击Proportions→The Confidence Interval of a Proportion即可计算。不同的是该在线工具使用不是正态近似法,而是Wilson法,同时与手工计算取舍小数点不同,所以计算结果略有差别。
2.2 两个率的差及率差的95%CI
使用VassarStats工具计算时,可在VassarStats的主界面点击Proportions→The Confidence Interval for the Difference Between Two Independent Proportions。
3.SPSS计算
3.1 单个率及其95%CI
SPSS有两个模块分别使用正态近似法和精确概率法计算率的95%CI。
首先建立数据库如下(例题同公式法1.1):
对weight进行加权:主界面点击data-weight cases,将weight变量选入frequency variable,点击OK.
正态近似法:在主界面点击Analyze-Descriptive Statistics-Ratio, 将positive变量选入Numerator,将group变量选入Denominator.
点击下方Statistics,选中mean,confidence intervals, continue. OK
精确概率法:主界面点击Analyze-Nonparametric Tests-One Sample…
Objective, fields, setting设置如下:
Settings里点击customize tests,选中第一个,点击options,选中clopper-pearson. OK-RUN.
双击hypothesis test summary,右下角view里选择confidence interval summary view即得出结果。
3.2 SPSS没有现成的模块计算率差的95%CI,但可以通过编程界面实现。将数据录入SPSS并且指定95%CI对应的值zcrit=1.96(可取任意变量名)。
打开Syntax界面,输入以下程序即可计算完成。
最终得到的结果如下。
实际上,SPSS的Syntax中编写程序,还是使用正态近似法的计算公式,还不如手工(或使用EXCEL计算)方便。
4. SAS计算
在本文介绍的几种方法中,其实SAS算是最为简单明了的,而且直接给出了正态近似法和精确概率法的结果,适合有一些SAS编程基础的同学。
4.1 单个率及其95%CI
程序及结果如下(例题同公式法):
4.2 两个率的差及率差的95%CI
程序及结果如下(例题同公式法):
作者·
作者:姬阆,张耀文
参考文献
[1]刘沛.正态近似法计算二项分布总体率95%可信区间的应用条件研究[J].中国卫生统计,2004(02):22-26.
[2]郑卫军,何凡.总体率的95%置信区间估计基本方法和软件操作[J].预防医学,2020,32(05):539-540.